预先训练的语言模型已经建立了有关各种自然语言处理任务的最新技术,包括对话摘要,这使读者可以在会议,访谈或电话中的长时间对话中快速访问关键信息。但是,这种对话仍然很难使用当前的模型来处理,因为语言的自发性涉及在用于预先培训语言模型的语料库中很少存在的表达式。此外,在这一领域完成的绝大多数工作都集中在英语上。在这项工作中,我们介绍了一项研究,使用几种特定语言的预培训模型:Barthez和Belgpt-2以及多语言预培训的模型:MBART,MBARTHEZ和MT5。实验是在Decoda(呼叫中心)对话语料库上进行的,其任务是根据情况在呼叫中心与一个或几个代理之间的呼叫中心对话中产生抽象介绍。结果表明,Barthez型号的性能最佳,远远超过了Decoda先前的最新性能。我们进一步讨论了此类预训练模型的局限性以及总结自发对话所需的挑战。
translated by 谷歌翻译
IoT设备收集的数据通常是私人的,并且在各种用户之间具有巨大的多样性。因此,学习需要使用可用的代表性数据样本进行预训练,在物联网设备上部署预训练的模型,并使用本地数据在设备上调整已部署的模型。这种用于深度学习授权应用程序的设备改编需要数据和记忆效率。但是,现有的基于梯度的元学习方案无法支持记忆有效的适应。为此,我们提出了P-Meta,这是一种新的元学习方法,该方法可以强制执行结构的部分参数更新,同时确保快速概括到看不见的任务。对几片图像分类和强化学习任务的评估表明,与最先进的几次适应方法相比。
translated by 谷歌翻译
大多数现有的多源域适配(MSDA)方法通过特征分布对准最小化多个源 - 目标域对之间的距离,从单个源设置借用的方法。但是,对于不同的源极域,对齐成对特征分布是具有挑战性的,甚至可以对MSDA进行反效率。在本文中,我们介绍了一种新颖的方法:可转让的属性学习。动机很简单:虽然不同的域可以具有急剧不同的视野,但它们包含相同的类类,其特征在一起相同的属性;因此,MSDA模型应该专注于学习目标域的最可转换的属性。采用这种方法,我们提出了域名关注一致性网络,称为DAC网。关键设计是一个特征通道注意模块,旨在识别可转移功能(属性)。重要的是,注意模块受到一致性损失的监督,这对源极和目标域之间的信道注意权重的分布施加。此外,为了促进对目标数据的鉴别特征学习,我们将伪标记与类紧凑性丢失相结合,以最小化目标特征和分类器的权重向量之间的距离。在三个MSDA基准测试中进行了广泛的实验表明,我们的DAC-NET在所有这些中实现了新的最新性能。
translated by 谷歌翻译
Monge Map是指两个概率分布之间的最佳运输映射,并提供了将一个分发转换为另一个的原则方法。尽管最佳运输问题的数值方法的快速发展,但计算Monge地图仍然具有挑战性,特别是对于高维问题。在本文中,我们提出了一种可扩展算法,用于计算两个概率分布之间的Monge地图。我们的算法基于最佳运输问题的弱形式,因此它仅需要来自边缘的样本而不是其分析表达式,并且可以容纳两个具有不同尺寸的分布之间的最佳运输。我们的算法适用于一般成本函数,与其他现有方法相比,用于使用样本估计Monge Maps的方法,这些方法通常用于二次成本。通过具有合成和现实数据的一系列实验来证明我们的算法的性能。
translated by 谷歌翻译
Though convolutional neural networks (CNNs) have demonstrated remarkable ability in learning discriminative features, they often generalize poorly to unseen domains. Domain generalization aims to address this problem by learning from a set of source domains a model that is generalizable to any unseen domain. In this paper, a novel approach is proposed based on probabilistically mixing instancelevel feature statistics of training samples across source domains. Our method, termed MixStyle, is motivated by the observation that visual domain is closely related to image style (e.g., photo vs. sketch images). Such style information is captured by the bottom layers of a CNN where our proposed style-mixing takes place. Mixing styles of training instances results in novel domains being synthesized implicitly, which increase the domain diversity of the source domains, and hence the generalizability of the trained model. MixStyle fits into mini-batch training perfectly and is extremely easy to implement. The effectiveness of MixStyle is demonstrated on a wide range of tasks including category classification, instance retrieval and reinforcement learning.
translated by 谷歌翻译
Diffusion models have achieved state-of-the-art synthesis quality on visual and audio tasks, and recent works adapt them to textual data by diffusing on the embedding space. But the difference between the continuous data space and the embedding space raises challenges to the diffusion model, which have not been carefully explored. In this paper, we conduct systematic studies and analyze the challenges threefold. Firstly, the data distribution is learnable for embeddings, which may lead to the collapse of the loss function. Secondly, as the norm of embedding varies between popular and rare words, adding the same noise scale will lead to sub-optimal results. In addition, we find that noises sampled from a standard Gaussian distribution may distract the diffusion process. To solve the above challenges, we propose Difformer, a denoising diffusion probabilistic model based on Transformer, which consists of three techniques including utilizing an anchor loss function, a layer normalization module for embeddings, and a norm factor to the Gaussian noise. All techniques are complementary to each other and critical to boosting the model performance together. Experiments are conducted on benchmark datasets over two seminal text generation tasks including machine translation and text summarization. The results show that Difformer significantly outperforms the embedding diffusion baselines, while achieving competitive results with strong autoregressive baselines.
translated by 谷歌翻译
生长免费的在线3D形状集合决定了3D检索的研究。然而,已经进行了积极的辩论(i)最佳输入方式是触发检索,以及(ii)这种检索的最终用法场景。在本文中,我们为回答这些问题提供了不同的观点 - 我们研究了3D草图作为输入方式,并提倡进行检索的VR-Scenario。因此,最终的愿景是用户可以通过在VR环境中自由空气供电来自由地检索3D模型。作为新的3D VR-Sketch的首次刺入3D形状检索问题,我们做出了四个贡献。首先,我们对VR实用程序进行编码以收集3D VR-Sketches并进行检索。其次,我们从ModelNet收集了两个形状类别的第一套$ 167 $ 3D VR-SKETCHES。第三,我们提出了一种新的方法,以生成不同抽象级别类似人类的3D草图的合成数据集,以训练深层网络。最后,我们比较了常见的多视图和体积方法:我们表明,与3D形状到3D形状检索相比,基于体积点的方法在3D草图上表现出卓越的性能,并且由于稀疏和抽象的性质而显示出3D形状的检索3D VR-Sketches。我们认为,这些贡献将集体成为未来在此问题的尝试的推动者。 VR接口,代码和数据集可在https://tinyurl.com/3dsketch3dv上找到。
translated by 谷歌翻译
我们介绍了1,497个3D VR草图和具有较大形状多样性的椅子类别的3D形状对的第一个细粒数据集。我们的数据集支持草图社区的最新趋势,以细粒度的数据分析,并将其扩展到主动开发的3D域。我们争辩说最方便的草图场景,其中草图由稀疏的线条组成,并且不需要任何草图技能,事先培训或耗时的准确绘图。然后,我们首次将细粒度3D VR草图的场景研究为3D形状检索,作为一种新颖的VR素描应用程序和一个探索基础,以推动通用见解以告知未来的研究。通过实验在这个新问题上精心选择的设计因素组合,我们得出重要的结论以帮助跟进工作。我们希望我们的数据集能够启用其他新颖的应用程序,尤其是那些需要细粒角的应用程序,例如细粒度的3D形状重建。该数据集可在tinyurl.com/vrsketch3dv21上获得。
translated by 谷歌翻译
我们为运动计划问题提出了高斯变异推理框架。在此框架中,运动计划是对轨迹分布的优化,以通过可拖动的高斯分布近似所需的轨迹分布。同等地,提议的框架可以视为具有熵正则化的标准运动计划。因此,获得的解决方案是从最佳确定溶液到随机溶液的过渡,并且所提出的框架可以通过控制随机性水平来恢复确定性解决方案。为了解决这种优化,我们采用了自然梯度下降方案。进一步利用了由分解的目标函数引起的提议配方的稀疏性结构,以提高算法的可扩展性。我们在模拟环境中评估了几个机器人系统的方法,并表明它可以通过平滑的轨迹来避免碰撞,同时为确定性基线结果带来了鲁棒性,尤其是在具有挑战性的环境和任务中。
translated by 谷歌翻译
图形卷积网络(GCN)及其变体是为仅包含正链的无符号图设计的。许多现有的GCN来自位于(未签名)图的信号的光谱域分析,在每个卷积层中,它们对输入特征进行低通滤波,然后进行可学习的线性转换。它们扩展到具有正面和负面链接的签名图,引发了多个问题,包括计算不规则性和模棱两可的频率解释,从而使计算有效的低通滤波器的设计具有挑战性。在本文中,我们通过签名图的光谱分析来解决这些问题,并提出了两个不同的图形神经网络,一个人仅保留低频信息,并且还保留了高频信息。我们进一步引入了磁性签名的拉普拉斯式,并使用其特征成分进行定向签名图的光谱分析。我们在签名图上测试了节点分类的方法,并链接符号预测任务并实现最先进的性能。
translated by 谷歌翻译